Generalisation to unseen contexts remains a challenge for embodied navigation agents. In the context of semantic audio-visual navigation (SAVi) tasks, the notion of generalisation should include both generalising to unseen indoor visual scenes as well as generalising to unheard sounding objects. However, previous SAVi task definitions do not include evaluation conditions on truly novel sounding objects, resorting instead to evaluating agents on unheard sound clips of known objects; meanwhile, previous SAVi methods do not include explicit mechanisms for incorporating domain knowledge about object and region semantics. These weaknesses limit the development and assessment of models' abilities to generalise their learned experience. In this work, we introduce the use of knowledge-driven scene priors in the semantic audio-visual embodied navigation task: we combine semantic information from our novel knowledge graph that encodes object-region relations, spatial knowledge from dual Graph Encoder Networks, and background knowledge from a series of pre-training tasks -- all within a reinforcement learning framework for audio-visual navigation. We also define a new audio-visual navigation sub-task, where agents are evaluated on novel sounding objects, as opposed to unheard clips of known objects. We show improvements over strong baselines in generalisation to unseen regions and novel sounding objects, within the Habitat-Matterport3D simulation environment, under the SoundSpaces task.
translated by 谷歌翻译
The feasibility of collecting a large amount of expert demonstrations has inspired growing research interests in learning-to-drive settings, where models learn by imitating the driving behaviour from experts. However, exclusively relying on imitation can limit agents' generalisability to novel scenarios that are outside the support of the training data. In this paper, we address this challenge by factorising the driving task, based on the intuition that modular architectures are more generalisable and more robust to changes in the environment compared to monolithic, end-to-end frameworks. Specifically, we draw inspiration from the trajectory forecasting community and reformulate the learning-to-drive task as obstacle-aware perception and grounding, distribution-aware goal prediction, and model-based planning. Firstly, we train the obstacle-aware perception module to extract salient representation of the visual context. Then, we learn a multi-modal goal distribution by performing conditional density-estimation using normalising flow. Finally, we ground candidate trajectory predictions road geometry, and plan the actions based on on vehicle dynamics. Under the CARLA simulator, we report state-of-the-art results on the CARNOVEL benchmark.
translated by 谷歌翻译
将规则无缝整合到学习中(LFD)策略是启用AI代理的现实部署的关键要求。最近,信号时间逻辑(STL)已被证明是将规则作为时空约束的有效语言。这项工作使用蒙特卡洛树搜索(MCT)作为将STL规范集成到香草LFD策略中以提高约束满意度的一种手段。我们建议以STL鲁棒性值来增强MCT启发式,以使树的搜索偏向具有更高限制满意度的分支。虽然无域的方法可以应用于将STL规则在线整合到任何预训练的LFD算法中,但我们选择目标条件的生成对抗性模仿学习作为离线LFD策略。我们将提出的方法应用于规划轨迹的领域,用于在非较低机场周围的通用航空飞机。使用对现实世界数据进行训练的模拟器的结果显示了60%的性能比不使用STL启发式方法的基线LFD方法提高了性能。
translated by 谷歌翻译
预测行人运动对于开发在拥挤的环境中相互作用的社会意识的机器人至关重要。虽然社交互动环境的自然视觉观点是一种自然的观点,但轨迹预测中的大多数现有作品纯粹是在自上而下的轨迹空间中进行的。为了支持第一人称视图轨迹预测研究,我们提出了T2FPV,这是一种构建高保真的第一人称视图数据集的方法,给定真实的,自上而下的轨迹数据集;我们在ETH/UCY行人数据集上展示了我们的方法,以生成所有互动行人的以自我为中心的视觉数据。我们报告说,原始的ETH/UCY数据集中使用的鸟眼视图假设,即代理可以用完美的信息观察场景中的每个人,而不会在第一人称视图中保持;在现有作品中通常使用的每个20个磁场场景中,只有一小部分的代理都可以完全看到。我们评估现有的轨迹预测方法在不同的现实感知水平下 - 与自上而下的完美信息设置相比,位移错误增加了356%。为了促进第一人称视图轨迹预测的研究,我们发布了T2FPV-ETH数据集和软件工具。
translated by 谷歌翻译
随着跨领域的机器人在共享环境中开始与人类合作,使他们能够推理人类意图的算法对于实现安全的相互作用很重要。在我们的工作中,我们通过预测动态环境中的轨迹的问题来研究人类的意图。我们探索导航准则相对严格定义但在其物理环境中没有明确标记的域。我们假设在这些领域内,代理人倾向于表现出短期运动模式,这些模式揭示了与代理人的一般方向,中间目标和运动规则相关的上下文信息,例如社会行为。从这种直觉中,我们提出了社交模式,这是一种复发,多模式轨迹预测的算法,该预测利用运动模式来编码上述上下文。我们的方法通过学习预测短期运动模式来指导长期的轨迹预测。然后,它从模式中提取次目标信息,并将其汇总为社会环境。我们评估了跨三个领域的方法:人类人群,体育中的人类和码头领空中的载人飞机,以实现最先进的表现。
translated by 谷歌翻译
在共同的自主权下,轮椅用户期望车辆在遵循用户高级导航计划的同时提供安全舒适的游乐设施。为了找到这样的道路,车辆与不同的地形进行谈判,并评估其遍历难度。大多数先前的作品通过几何表示或语义分类进行了模型,这并不能反映在下游导航任务中感知的运动强度和骑行舒适性。我们建议使用本体感知感应在遍历性分析中明确对骑行舒适度进行建模。我们开发了一个自我监督的学习框架,以通过利用车辆状态作为训练信号来预测第一人称视图图像的遍历性成本量。我们的方法估计,如果根据地形外观进行遍历,车辆的感觉会如何。然后,我们显示我们的导航系统通过机器人实验以及人类评估研究提供了人类偏爱的骑行舒适性。
translated by 谷歌翻译
生成使用机器学习的给定文本描述的图像具有大大提高了剪辑图像文本编码器模型等技术的提高;然而,目前的方法缺乏对要生成的图像样式的艺术控制。我们介绍了Styleclipdraw,它为ClipDraw文本到绘制的合成模型添加了样式损耗,以允许通过文本控制内容的除了内容之外的合成附图的艺术控制。尽管在生成的图像上执行解耦样式转移仅影响纹理,但是我们所提出的耦合方法能够在纹理和形状中捕获样式,表明图表的样式与绘图过程本身耦合。更多的结果和我们的代码可在https://github.com/pschaldanbrand/styleclipdraw中获得
translated by 谷歌翻译
未知环境中的路径规划问题仍然是一个具有挑战性的问题 - 由于在导航期间逐渐观察到环境,因此,基础规划师必须更新环境表示,并及时且不断地进行重新启动,以说明新的观察值。在本文中,我们提出了一个基于图形的计划框架,能够处理已知和未知环境中的导航任务。计划者采用环境的多边形表示,并通过在障碍物周围提取边缘点以形成封闭的多边形来构建表示形式。因此,该方法使用两层数据结构动态更新了全局可见性图,并扩展了可见性边缘以及导航和删除被新观察到的障碍物阻塞的边缘。当在未知环境中导航时,该方法可以通过即时拾取环境布局,更新可见性图,并快速重新规划与新观察到的环境相对应,从而尝试发现目标的方法。我们在模拟和现实世界中评估了该方法。该方法显示了尝试和导航未知环境的能力,从基于搜索的方法中减少了多达12-47%的旅行时间:A*,d* lite,并且比基于采样的方法相比: rrt*,bit*和Spars。
translated by 谷歌翻译
当任何安全违规可能导致灾难性失败时,赛车要求每个车辆都能在其物质范围内驾驶。在这项工作中,我们研究了自主赛车的安全强化学习(RL)的问题,使用车辆的自我摄像机视图和速度作为输入。鉴于任务的性质,自主代理需要能够1)识别并避免复杂的车辆动态下的不安全场景,而2)在快速变化的环境中使子第二决定。为了满足这些标准,我们建议纳入汉密尔顿 - 雅各(HJ)可达性理论,是一般非线性系统的安全验证方法,进入受约束的马尔可夫决策过程(CMDP)框架。 HJ可达性不仅提供了一种了解安全的控制理论方法,还可以实现低延迟安全验证。尽管HJ可达性传统上不可扩展到高维系统,但我们证明了具有神经逼近的,可以直接在视觉上下文中学习HJ安全值 - 迄今为止通过该方法研究的最高尺寸问题。我们在最近发布的高保真自主赛车环境中评估了我们在几个基准任务中的方法,包括安全健身房和学习(L2R)。与安全健身房的其他受约束的RL基线相比,我们的方法非常少的限制性违规,并在L2R基准任务上实现了新的最先进结果。我们在以下匿名纸质网站提供额外可视化代理行为:https://sites.google.com/view/safeautomouracing/home
translated by 谷歌翻译
感知,规划,估算和控制的当代方法允许机器人在不确定,非结构化环境中的远程代理中稳健运行。此进度现在创造了机器人不仅在隔离,而且在我们的复杂环境中运行的机器人。意识到这个机会需要一种高效且灵活的媒介,人类可以与协作机器人沟通。自然语言提供了一种这样的媒体,通过对自然语言理解的统计方法的重大进展,现在能够解释各种自由形式命令。然而,大多数当代方法需要机器人环境的详细,现有的空间语义地图,这些环境模拟了话语可能引用的可能引用的空间。因此,当机器人部署在新的,先前未知或部分观察到的环境中时,这些方法发生故障,特别是当环境的心理模型在人类运营商和机器人之间不同时。本文提供了一种新的学习框架的全面描述,允许现场和服务机器人解释并正确执行先验未知,非结构化环境中的自然语言指令。对于我们的方法而不是我们的语言作为“传感器” - 在话语中隐含的“传感器” - 推断的空间,拓扑和语义信息,然后利用这些信息来学习在潜在环境模型上的分布。我们将此分布纳入概率,语言接地模型中,并在机器人的动作空间的象征性表示中推断出分布。我们使用模仿学习来确定对环境和行为分布的原因的信仰空间政策。我们通过各种导航和移动操纵实验评估我们的框架。
translated by 谷歌翻译